机器学习的最新进展使其在不同领域的广泛应用程序,最令人兴奋的应用程序之一是自动驾驶汽车(AV),这鼓励了从感知到预测到计划的许多ML算法的开发。但是,培训AV通常需要从不同驾驶环境(例如城市)以及不同类型的个人信息(例如工作时间和路线)收集的大量培训数据。这种收集的大数据被视为以数据为中心的AI时代的ML新油,通常包含大量对隐私敏感的信息,这些信息很难删除甚至审核。尽管现有的隐私保护方法已经取得了某些理论和经验成功,但将它们应用于自动驾驶汽车等现实世界应用时仍存在差距。例如,当培训AVS时,不仅可以单独识别的信息揭示对隐私敏感的信息,还可以揭示人口级别的信息,例如城市内的道路建设以及AVS的专有商业秘密。因此,重新审视AV中隐私风险和相应保护方法的前沿以弥合这一差距至关重要。遵循这一目标,在这项工作中,我们为AVS中的隐私风险和保护方法提供了新的分类法,并将AV中的隐私分为三个层面:个人,人口和专有。我们明确列出了保护每个级别的隐私级别,总结这些挑战的现有解决方案,讨论课程和结论,并为研究人员和从业者提供潜在的未来方向和机会。我们认为,这项工作将有助于塑造AV中的隐私研究,并指导隐私保护技术设计。
translated by 谷歌翻译
文档信息提取(DIE)由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了竞争成果,但在处理具有嘈杂的OCR结果或突变布局的复杂文档时,这些方法通常会失败。本文提出了用于现实世界情景的生成多模式网络(GMN),以解决这些问题,这是一种强大的多模式生成方法,没有预定义的标签类别。借助精心设计的空间编码器和模态感知的蒙版模块,GMN可以处理复杂的文档,这些文档很难序列化为顺序。此外,GMN可以容忍OCR结果中的错误,并且不需要字符级注释,这是至关重要的,因为对众多文档的细粒注释很费力,甚至需要具有专门域知识的注释者。广泛的实验表明,GMN在几个公共模具数据集上实现了新的最新性能,并超过了其他方法,尤其是在现实的场景中。
translated by 谷歌翻译
AVA挑战的目标是提供与可访问性相关的基于视觉的基准和方法。在本文中,我们将提交的技术细节介绍给CVPR2022 AVA挑战赛。首先,我们进行了一些实验,以帮助采用适当的模型和数据增强策略来完成此任务。其次,采用有效的培训策略来提高性能。第三,我们整合了两个不同分割框架的结果,以进一步提高性能。实验结果表明,我们的方法可以在AVA测试集上获得竞争结果。最后,我们的方法在CVPR2022 AVA挑战赛的测试集上实现了63.008 \%ap@0.50:0.95。
translated by 谷歌翻译
近年来,热图像超分辨率(TISR)问题已成为一个有吸引力的研究主题。 TISR将用于各种领域,包括军事,医疗,农业和动物生态学。由于PBVS-2020和PBVS-2021研讨会挑战的成功,TISR的结果不断改善,并吸引了更多的研究人员注册PBVS-2022挑战。在本文中,我们将向PBVS-2022挑战介绍我们提交的技术细节,该挑战设计具有频道拆分网络和变压器(BN-CSNT)的双边网络以解决TISR问题。首先,我们设计了一个基于带有变压器的频道拆分网络的上下文分支,以获取足够的上下文信息。其次,我们设计了一个带有浅变压器的空间分支,以提取可以保留空间信息的低水平特征。最后,对于上下文分支,为了融合通道拆分网络和变压器的功能,我们提出了一个注意力改进模块,然后通过建议的特征融合模块融合了上下文分支和空间分支的特征。所提出的方法可以实现X4的PSNR = 33.64,SSIM = 0.9263,PSNR = 21.08,SSIM = 0.7803在PBVS-2022挑战测试数据集中X2的SSIM = 0.7803。
translated by 谷歌翻译
引用视频对象细分任务(RVO)的目的是在所有视频框架中通过语言表达式引用的给定视频中的对象实例。由于需要在各个实例中理解跨模式语义,因此此任务比传统的半监督视频对象细分更具挑战性,在该视频对象分割中,在第一帧中给出了地面真相对象掩盖。随着变压器在对象检测和对象细分方面的巨大成就,RVOS已取得了显着的进步,而Reformen to Reformer实现了最新的性能。在这项工作中,基于强大的基线框架 - 引用者,我们提出了几个技巧来进一步提高,包括周期性学习率,半监督方法和测试时间增加推断。改进的推荐子在CVPR2022上排名第二,参考YouTube-VOS挑战。
translated by 谷歌翻译
与淘宝和亚马逊等大型平台不同,由于严重的数据分配波动(DDF)问题,在小规模推荐方案中开发CVR模型是更具挑战性的。 DDF防止现有的CVR模型自生效以来,因为1)需要几个月的数据需要足够小的场景训练CVR模型,导致培训和在线服务之间的相当大的分布差异; 2)电子商务促销对小型情景产生了更大的影响,导致即将到期的时间段的不确定性。在这项工作中,我们提出了一种名为MetacVR的新型CVR方法,从Meta学习的角度解决了DDF问题。首先,由特征表示网络(FRN)和输出层组成的基础CVR模型是精心设计和培训的,在几个月内与样品充分设计和培训。然后,我们将不同数据分布的时间段视为不同的场合,并使用相应的样本和预先训练的FRN获得每个场合的正面和负原型。随后,设计了距离度量网络(DMN)以计算每个样本和所有原型之间的距离度量,以便于减轻分布不确定性。最后,我们开发了一个集合预测网络(EPN),该网络(EPN)包含FRN和DMN的输出以进行最终的CVR预测。在这个阶段,我们冻结了FRN并用最近一段时间的样品训练DMN和EPN,因此有效地缓解了分布差异。据我们所知,这是在小规模推荐方案中针对DDF问题的CVR预测第一次研究。实验结果对现实世界数据集验证了我们的MetacVR和Online A / B测试的优越性也表明我们的模型在PCVR上实现了11.92%的令人印象深刻的收益和GMV的8.64%。
translated by 谷歌翻译
促销活动在电子商务平台上变得更加重要和普遍,以吸引客户和提升销售。但是,推荐系统中的点击率(CTR)预测方法无法处理此类情况,因为:1)他们无法概括为服务,因为在线数据分布是不确定的,因为可能正在推出的促销潜在的促销; 2)在不够重视方案信号的情况下,它们无法学习在每个场景中共存的不同特征表示模式。在这项工作中,我们提出了方案自适应混合的专家(相同),这是一个简单而有效的模型,用于促销和正常情况。从技术上讲,它通过采用多个专家来学习专家来遵循专家混合的想法,这些特征表示通过注意机制通过特征门控网络(FGN)进行调制。为了获得高质量的表示,我们设计了一个堆叠的并行关注单元(SPAU),以帮助每个专家更好地处理用户行为序列。为了解决分布不确定性,从时间序列预测的角度精确地设计了一组场景信号,并馈入FGN,其输出与来自每个专家的特征表示连接,以学会注意。因此,特征表示的混合是自适应的场景和用于最终的CTR预测。通过这种方式,每个专家都可以学习鉴别的表示模式。据我们所知,这是第一次推广感知CTR预测的研究。实验结果对现实世界数据集验证了同一的优势。在线A / B测试也表现出同样的促销期间在CTR上的显着增益和5.94%的IPV,分别在正常日内为3.93%和6.57%。
translated by 谷歌翻译
用于数据有效的计算机视觉挑战的视觉感应前瞻挑战要求竞争对手从数据缺陷的设置中从头划痕培训模型。在本文中,我们向ICCV2021 Vipriors实例分割挑战介绍了我们提交的技术细节。首先,我们设计了一种有效的数据增强方法,以改善数据缺陷的问题。其次,我们进行了一些实验来选择适当的模型,并对这项任务进行了一些改进。第三,我们提出了一种有效的培训策略,可以提高性能。实验结果表明,我们的方法可以在测试集上实现竞争结果。根据竞争规则,我们不使用任何外部图像或视频数据和预先训练的权重。上面的实现细节在第2节和第3节中描述了。最后,我们的方法可以在ICCV2021 Vipriors实例分割挑战的测试集上实现40.2 \%@ 0.50:0.95。
translated by 谷歌翻译
人重新识别(RE-ID)旨在确定非重叠捕获摄像机的同一个人人员,这在视觉监控应用和计算机视觉研究领域起着重要作用。由于高广阔的注释未标记数据的标识,拟合有限的基于外观的表示提取器具有有限的收集的训练数据对于人物重新ID是至关重要的。在这项工作中,我们为人员重新ID提出了更强大的基线,即当前现行方法的增强版本,即强大的基线,具有微小的修改,但更快的收敛速度和更高的识别性能。借助于更强大的基线,我们在2021个vipriors中获得了第三名(即0.94,在地图中)重新识别挑战,而没有基于想象的预训练的参数初始化和任何额外的补充数据集的辅助。
translated by 谷歌翻译
视频场景在野外与不同方案进行了解析,是一个具有挑战性和重要的任务,特别是随着自动驾驶技术的快速发展。野外(VSPW)中的数据集视频场景分析包含良好的修整长时间,密度注释和高分辨率剪辑。基于VSPW,我们设计具有视觉变压器的时间双边网络。我们首先使用卷积设计空间路径以产生能够保留空间信息的低级功能。同时,采用具有视觉变压器的上下文路径来获得足够的上下文信息。此外,时间上下文模块被设计为利用帧间内容信息。最后,该方法可以实现VSPW2021挑战测试数据集的49.85 \%的Union(Miou)的平均交叉点。
translated by 谷歌翻译